---
title: 知识库
---

import { Video } from '@/components/ui/video'
import { Image } from '@/components/ui/image'

知识库允许您通过智能向量搜索和分块功能上传、处理并搜索您的文档。各种类型的文档会被自动处理、嵌入并变得可搜索。您的文档会被智能分块，您可以使用自然语言查询来查看、编辑和搜索它们。

## 上传与处理

只需上传您的文档即可开始。Sim 会在后台自动处理它们，提取文本、创建嵌入并将其分成可搜索的块。

<div className="mx-auto w-full overflow-hidden rounded-lg">
  <Video src="knowledgebase-1.mp4" width={700} height={450} />
</div>

系统为您处理整个处理流程：

1. **文本提取**：使用针对每种文件类型的专用解析器从文档中提取内容
2. **智能分块**：将文档分成有意义的块，并可配置大小和重叠
3. **嵌入生成**：创建向量嵌入以实现语义搜索功能
4. **处理状态**：在文档处理时跟踪进度

## 支持的文件类型

Sim 支持 PDF、Word (DOC/DOCX)、纯文本 (TXT)、Markdown (MD)、HTML、Excel (XLS/XLSX)、PowerPoint (PPT/PPTX) 和 CSV 文件。每个文件最大可达 100MB，文件小于 50MB 时性能最佳。您可以同时上传多个文档，PDF 文件还包括对扫描文档的 OCR 处理。

## 查看和编辑分块

文档处理完成后，您可以查看和编辑各个分块。这使您可以完全控制内容的组织和搜索方式。

<Image src="/static/knowledgebase/knowledgebase.png" alt="显示已处理内容的文档分块视图" width={800} height={500} />

### 分块配置
- **默认分块大小**：1,024 个字符
- **可配置范围**：每块 100-4,000 个字符
- **智能重叠**：默认重叠 200 个字符以保留上下文
- **分层拆分**：遵循文档结构（章节、段落、句子）

### 编辑功能
- **编辑分块内容**：修改单个分块的文本内容
- **调整分块边界**：根据需要合并或拆分分块
- **添加元数据**：为分块添加额外的上下文信息
- **批量操作**：高效管理多个分块

## 高级 PDF 处理

对于 PDF 文档，Sim 提供增强的处理功能：

### OCR 支持
当配置了 Azure 或 [Mistral OCR](https://docs.mistral.ai/ocr/) 时：
- **扫描文档处理**：从基于图像的 PDF 中提取文本
- **混合内容处理**：处理同时包含文本和图像的 PDF
- **高精度**：先进的 AI 模型确保准确的文本提取

## 在工作流中使用知识块

一旦您的文档被处理，您可以通过知识块在 AI 工作流中使用它们。这使得检索增强生成（RAG）成为可能，让您的 AI 代理能够访问并推理文档内容，从而提供更准确、有上下文的响应。

<Image src="/static/knowledgebase/knowledgebase-2.png" alt="在工作流中使用知识块" width={800} height={500} />

### 知识块功能
- **语义搜索**：使用自然语言查询查找相关内容
- **上下文集成**：自动将相关分块包含在代理提示中
- **动态检索**：在工作流执行期间实时搜索
- **相关性评分**：根据语义相似性对结果进行排名

### 集成选项
- **系统提示**：为您的 AI 代理提供上下文
- **动态上下文**：在对话中搜索并包含相关信息
- **多文档搜索**：在整个知识库中查询
- **过滤搜索**：结合标签实现精确内容检索

## 向量搜索技术

Sim 使用由 [pgvector](https://github.com/pgvector/pgvector) 提供支持的向量搜索来理解您的内容的含义和上下文：

### 语义理解
- **上下文搜索**：即使精确的关键词不匹配，也能找到相关内容
- **基于概念的检索**：理解想法之间的关系
- **多语言支持**：支持跨不同语言工作
- **同义词识别**：找到相关术语和概念

### 搜索功能
- **自然语言查询**：用简单的英语提问
- **相似性搜索**：找到概念上相似的内容
- **混合搜索**：结合向量和传统关键词搜索
- **可配置结果**：控制结果的数量和相关性阈值

## 文档管理

### 组织功能
- **批量上传**：通过异步 API 一次上传多个文件
- **处理状态**：实时更新文档处理状态
- **搜索和过滤**：在大型集合中快速找到文档
- **元数据跟踪**：自动捕获文件信息和处理详情

### 安全性和隐私
- **安全存储**：文档以企业级安全性存储
- **访问控制**：基于工作区的权限设置
- **处理隔离**：每个工作区的文档处理是独立的
- **数据保留**：配置文档保留策略

## 快速入门

1. **导航到您的知识库**：从工作区侧边栏访问
2. **上传文档**：拖放或选择文件进行上传
3. **监控处理**：查看文档的处理和分块进度
4. **探索分块**：查看和编辑处理后的内容
5. **添加到工作流**：使用知识块与您的 AI 代理集成

知识库将您的静态文档转化为智能的、可搜索的资源，使您的 AI 工作流能够利用这些资源提供更有信息量和上下文的响应。